DAY5 大數據的處理過程-1

第 11 屆 iThome 鐵人賽

DAY 5

自我挑戰組

大數據系列第 5 篇

11th鐵人賽

總是學不會

2019-09-20 21:59:52

788 瀏覽

分享至

大數據的處理過程一般分為4個步驟。數據採集、數據導入和數據清理、數據統計和分析以及數據挖掘應用。
今天就先介紹數據採集的部分。

數據採集
數據採集強調全體性及完整性而非抽樣調查，是很重要的步驟。
在採集過程中的特點和挑戰是併發數高，比如大陸每年的春運購票，這種時候就需要大量的資料庫支撐，再依靠合理的分流和公有雲等架構方法來保證數據都準確有用。

常見的大數據的收集平台

(1) Apache Flume：使用JRuby構建，依賴Java運行環境。
(2) Fluentd：使用C/JRuby開發，使用JSON文件來統一數據。
(3) Logstash：使用JRuby開發，所有運行依賴JVM。
(4) Splunk Forwarder：分為Search Head（數據的搜索和處理）、Indexer（數據的儲存和索引）和Forwarder（數據的收集、清洗、變形，並發送給Indexer）。

資料來源：https://kknews.cc/tech/l42k3g.html
https://kknews.cc/zh-tw/tech/rxj3jo.html